테크노트 포스텍 연구팀, '소리→영상·텍스트' 전환 기술 개발...'짹짹' 하자 AI가 참새 영상을
챗GPT, GPT-4가 산업혁명을 이끈 증기기관 발명에 비견되고 있지만, 텍스트와 이미지 중심인 GPT 시리즈가 아직 다루지 못하는 영역이 있다. 바로 영상 생성 기술이다. 그런데 국내 연구진이 영상 인공지능(AI) 기술에서 괄목할만한 성과를 잇달아 내놔 독자적인 파운데이션 모델(근간이 되는 AI) 기술이 귀한 국내 AI 업계에 희소식을 전하고 있다. 14일 AI 업계와 학계에 따르면 오태현 포스텍 교수 연구팀은 AI가 소리만 듣고 시각 장면을 영상으로 재현하는 기술을 오는 6월 캐나다 밴쿠버에서 열리는 세계 최고 권위의 AI 학회 'CVPR'에서 발표할 예정이다. '사운드 투 신'(Sound2scene)으로 이름 붙인 연구는 말 그대로 소리 정보를 영상으로 바꿔주는 기술에 관한 것이다. 가령 참새 소리를 AI에 입력하면 나뭇가지에 앉아 지저귀는 참새 영상이 자동 생성된다. 오 교수는 "사람은 방 안에서도 바깥에서 들리는 놀이터 아이들 노는 소리, 자동차 경적 등을 듣고 놀이터 풍경이나 자동차가 지나가는 장면을 상상할 수 있듯 인공지능도 소리를 듣고 배경이 되는 장면을 만들어낼 수 있는 것"이라고 설명했다. 하지만 AI라고 해서 아무나 영상을 쉽게 생성할 수